Meta Llama 3.3 (2024-12-16)

Meta Llama 3.3 (2024-12-16)

1. Llama 3.3의 등장과 AI 생태계의 패러다임 전환

1.1 Llama 3.3의 핵심 가치 제안

2024년 12월 6일 공개된 Meta의 Llama 3.3 70B 모델은 단순한 기술적 업데이트를 넘어, 인공지능(AI) 산업의 발전 방향을 재정의하는 전략적 이정표로 평가된다.1 이 모델의 핵심 가치는 AI 산업의 경쟁 구도를 ’규모의 경쟁’에서 ’효율성의 경쟁’으로 전환시키는 데 있다. Llama 3.3은 이전 세대의 405B 파라미터급 대형 모델과 동등한 수준의 성능을 70B라는 훨씬 작은 규모로 달성했다.2 이는 고성능 AI에 대한 접근성을 극적으로 향상시켜, 오픈 소스 커뮤니티에 전례 없는 강력한 도구를 제공함과 동시에 막대한 컴퓨팅 자원을 기반으로 한 폐쇄형 상용 모델의 경제적 해자(economic moat)에 근본적인 도전을 제기한다.

이러한 전략적 움직임은 Meta의 AI 시장 접근법이 다층적임을 시사한다. Llama 3.1 405B 모델이 최첨단 성능의 정점을 추구하고, Llama 3.2가 멀티모달 기능으로 기술적 지평을 확장했다면, Llama 3.3은 ’경제적 합리성’과 ’광범위한 채택’을 목표로 하는 전략적 카드다.4 이는 Meta가 AI 시장의 최상위 포식자들과 직접 경쟁하는 동시에, 비용에 민감한 대다수의 개발자 및 기업 시장을 공략하여 Llama 생태계를 확고한 산업 표준으로 만들려는 이중 포석 전략으로 분석된다. 즉, Llama 3.3의 출시는 단순히 기술적 우위를 점하는 것을 넘어, AI 시장의 경제 구조 자체를 재편하려는 의도를 내포한다. 고성능 AI의 ’민주화’를 통해 개발자들을 Llama 생태계로 유인하고, 이를 통해 장기적인 플랫폼 지배력을 확보하려는 것이다.

1.2 안내서의 목적 및 구조

본 안내서는 AI 연구자, 엔지니어, 그리고 기술 전략가를 대상으로 Llama 3.3의 기술적 깊이, 성능, 시장 내 위치, 그리고 전략적 함의를 다각도로 분석하는 것을 목표로 한다. 안내서는 모델의 아키텍처 분석에서 시작하여, 주요 벤치마크를 통한 성능 평가, 핵심 기능 및 활용 사례 탐구, 로컬 및 클라우드 환경에서의 배포 가이드, 라이선스 및 윤리적 고려사항, 그리고 모델의 내재적 한계점 분석으로 이어진다. 최종적으로, 이러한 분석을 종합하여 Llama 3.3이 AI 개발의 미래에 미칠 심대한 영향에 대한 전망을 제시하는 구조로 전개될 것이다.

2. Llama 3.3의 기술적 구조 및 아키텍처 심층 분석

2.1 최적화된 트랜스포머 아키텍처

Llama 3.3은 현대 대규모 언어 모델(LLM)의 표준이 된 트랜스포머(Transformer) 아키텍처를 기반으로 한다. 그러나 단순한 구현을 넘어, 추론 효율성을 극대화하기 위한 여러 구조적 개선을 적용했다.2 트랜스포머의 기본 구성 요소인 다중 헤드 자기 어텐션(Multi-head self-attention), 피드포워드 신경망(feed-forward neural network), 계층 정규화(layer normalization), 그리고 잔차 연결(residual connection) 등의 요소들이 Llama 3.3에서는 성능 저하 없이 계산 비용을 최소화하는 방향으로 최적화되었다.8

2.2 그룹화된 쿼리 어텐션 (Grouped-Query Attention, GQA) 심층 해부

Llama 3.3 효율성의 가장 핵심적인 기술은 그룹화된 쿼리 어텐션(GQA)이다.2

2.2.1 GQA의 원리

표준적인 다중 헤드 어텐션(Multi-Head Attention, MHA)은 각 쿼리(Query) 헤드가 자신만의 독립적인 키(Key)와 값(Value) 헤드를 가지는 구조다. 이 방식은 모델의 표현력을 극대화하지만, 추론 과정에서 생성되는 모든 토큰의 키와 값 벡터를 저장해야 하는 Key-Value (KV) 캐시의 크기가 모델의 크기 및 컨텍스트 길이에 비례하여 폭발적으로 증가하는 문제를 야기한다.9 GQA는 이러한 병목 현상을 해결하기 위해 여러 개의 쿼리 헤드가 하나의 키/값 헤드 그룹을 공유하도록 설계되었다. 이 구조는 KV 캐시의 크기와 메모리 대역폭 요구량을 획기적으로 줄여, 특히 긴 컨텍스트를 처리할 때 추론 속도를 크게 향상시키는 결정적인 요인으로 작용한다.10

2.2.2 수학적 표현

어텐션 메커니즘의 일반적인 계산식은 다음과 같다.
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
여기서 Q, K, V는 각각 쿼리, 키, 값 행렬이며 d_k는 키 벡터의 차원이다. MHA에서는 쿼리 헤드의 수(N_h)와 키/값 헤드의 수가 동일하다. 반면 GQA에서는 N_h개의 쿼리 헤드가 N_{kv}개의 키/값 헤드 그룹에 할당되며, N_hN_{kv}의 배수가 된다. 각 그룹 내의 쿼리 헤드들은 동일한 키 및 값 프로젝션을 공유한다. 결과적으로 KV 캐시의 크기는 MHA 대비 N_h / N_{kv} 비율로 감소하게 된다.

2.3 대규모 학습 데이터와 토크나이저

Llama 3.3의 높은 파라미터 효율성은 아키텍처뿐만 아니라, 학습 데이터와 데이터 처리 방식에도 기인한다. 모델은 공개적으로 이용 가능한 온라인 소스에서 신중하게 선별된 15조 개 이상의 방대한 토큰으로 사전 학습되었다.2 이는 단순한 양적 팽창이 아니라, Meta가 강조하는 “더 나은 데이터(better data)“를 공급함으로써 모델의 지식 밀도를 높이고 파라미터당 학습 효율을 극대화하는 데 기여했다.

또한, Llama 3.3은 128,000개의 어휘(vocabulary)를 가진 확장된 토크나이저를 사용한다.2 더 큰 어휘 크기는 동일한 텍스트를 더 적은 수의 토큰으로 표현할 수 있게 한다. 이는 모델의 입력 처리 부담을 줄여, 유한한 컨텍스트 창 내에서 더 많은 정보를 처리하고 전체적인 처리 속도와 효율성을 직접적으로 개선하는 효과를 가져온다.

2.4 Llama-Nemotron을 통해 본 아키텍처의 잠재력

Llama-Nemotron 모델군에 대한 기술 안내서는 Llama 3.3의 아키텍처가 가진 견고함과 잠재력을 명확히 보여준다.12 이 안내서에서 Llama 3.3-70B-Instruct 모델은 신경망 아키텍처 탐색(Neural Architecture Search, NAS)과 같은 고급 추론 최적화 기법을 적용하기 위한 강력한 기반 모델로 사용되었다. Puzzle 프레임워크를 통해 어텐션 레이어를 일부 제거하거나 피드포워드 네트워크(FFN)의 차원을 동적으로 조절하는 등 공격적인 최적화를 적용했음에도 불구하고, 모델이 안정적으로 성능을 유지할 수 있었다는 사실은 Llama 3.3의 기본 아키텍처가 매우 견고하고 모듈화되어 있음을 방증한다. 이는 Llama 3.3이 이미 최적화의 한계에 도달한 것이 아니라, 추가적인 압축 및 최적화 기법을 수용할 수 있는 높은 잠재력을 지니고 있음을 의미한다.

결론적으로 Llama 3.3의 뛰어난 효율성은 GQA라는 단일 기술의 성과가 아니다. 이는 고품질의 방대한 데이터가 모델의 지식 밀도를 높이고, 효율적인 토크나이저가 입력 처리 부담을 줄이며, GQA 아키텍처가 계산 비용을 절감하는 각 단계의 이득이 곱셈적으로 작용하여 만들어낸 ’복합 상승 효과(Compounding Synergy)’의 결과물이다. 이처럼 전체 파이프라인에 걸쳐 ’손실 최소화’와 ’효율 극대화’를 추구하는 설계 철학은 향후 LLM 개발의 중요한 표준이 될 가능성이 높다.

속성 (Attribute)제원 (Specification)출처 (Source)
파라미터 수 (Parameters)70B (700억 개)2
아키텍처 (Architecture)Optimized Transformer with GQA2
컨텍스트 길이 (Context Length)128,000 tokens2
학습 데이터 규모 (Training Data)15조 토큰 이상 (15T+ tokens)2
토크나이저 어휘 크기 (Tokenizer Vocab)128,0002
지원 언어 (Supported Languages)8개 (영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어)13
출시일 (Release Date)2024년 12월 6일1

3. 성능 벤치마크 및 경쟁 모델 비교 분석

3.1 주요 벤치마크 성능 평가

Llama 3.3 70B 모델은 다양한 산업 표준 벤치마크에서 그 성능을 입증하며, 특히 효율성을 고려할 때 매우 인상적인 결과를 보여준다.

  • 종합 추론 능력 (MMLU): 대규모 다중작업 언어 이해(Massive Multitask Language Understanding) 벤치마크에서 Llama 3.3은 5-shot 기준으로 86%에 가까운 점수를 기록했다.14 이는 GPT-4o (88.7%)와 같은 최상위 폐쇄형 모델과 근접한 성능이며, 이전 세대의 Llama 3.1 405B 모델과 거의 동등한 수준이다.3 이 결과는 모델의 크기를 1/5 이하로 줄이면서도 종합적인 지식과 추론 능력을 성공적으로 유지했음을 증명한다.
  • 코딩 능력 (HumanEval): 코드 생성 능력 평가에서 Llama 3.3은 pass@1 기준 88.4%를 달성하여, GPT-4o의 90.2%와 대등한 경쟁력을 보여준다.14 이는 Llama 3.3이 단순한 대화형 AI를 넘어, 전문적인 소프트웨어 개발 지원 도구로서 충분한 역량을 갖추었음을 의미한다.
  • 수학 및 추론 (MATH500): Llama-Nemotron 기술 안내서에 따르면, Llama 3.3-70B-Instruct는 MATH500 벤치마크에서 73.6점을 기록했다.12 이는 복잡한 수학적 문제 해결 능력이 이전 모델들에 비해 유의미하게 개선되었음을 시사한다.
  • 툴 사용 (Tool Use): AI 인프라 제공업체 Groq이 발표한 벤치마크에 따르면, Llama 3.3 70B는 외부 API나 함수를 호출하여 작업을 수행하는 툴 사용 능력에서 GPT-4o와 Claude 3.5 Sonnet을 능가하는 성능을 보였다.16 이는 모델이 자율적인 AI 에이전트(Agent)의 핵심 두뇌로 활용될 잠재력이 매우 높음을 나타낸다.

3.2 경쟁 모델과의 심층 비교

Llama 3.3의 진정한 가치는 경쟁 모델과의 비교를 통해 더욱 명확해진다.

  • vs. GPT-4o: GPT-4o는 MMLU와 같은 일반 지식 벤치마크에서 근소한 우위를 점하며, 멀티모달 기능을 기본적으로 제공한다는 점에서 차별화된다.14 그러나 Llama 3.3은 코딩과 툴 사용이라는 실용적 영역에서 대등한 성능을 보이면서 압도적인 비용 효율성을 제공한다.
  • vs. Claude 3.5 Sonnet: Claude 모델군은 일반적으로 긴 컨텍스트 처리와 안전성에서 강점을 보이지만, Llama 3.3은 주요 벤치마크 성능, 특히 툴 사용 능력에서 경쟁 우위를 보인다.16
  • vs. Llama 3.1 405B: Llama 3.3의 가장 중요한 비교 대상은 자사의 이전 플래그십 모델이다. 다수의 벤치마크에서 405B 모델의 성능에 근접하거나 일부 상회하면서도, 서빙 비용은 훨씬 저렴하다.4 이로 인해 Llama 3.3은 사실상 Llama 3.1 70B와 405B 모델을 모두 대체하는 전략적 위치를 점하게 되었다.3

3.3 비용 효율성 분석

Llama 3.3의 가장 파괴적인 경쟁력은 가격, 즉 비용 효율성에서 나온다. 오픈 소스 모델이므로 배포 방식에 따라 비용이 상이하지만, 대표적인 API 서비스 제공업체를 기준으로 백만 토큰당 입출력 비용을 합산했을 때 GPT-4o보다 약 19.8배 저렴한 것으로 분석된다.14 이 극적인 비용 차이는 고성능 AI의 경제적 장벽을 무너뜨리는 역할을 한다. 이전에는 막대한 비용 때문에 시도조차 할 수 없었던 정교한 AI 애플리케이션 개발이 이제 스타트업과 중소기업에게도 가능한 현실이 된 것이다.

Llama 3.3의 성능 프로파일을 종합적으로 분석하면, 이 모델이 ’범용성’보다는 ’실용성’에 맞춰 정밀하게 튜닝되었음을 알 수 있다. MMLU와 같은 학술적 벤치마크에서 최고 점수를 경신하는 데 모든 자원을 쏟기보다는, 코딩(HumanEval)이나 툴 사용과 같이 즉각적인 상업적 가치를 창출하는 영역에서 최상위 모델과의 성능 격차를 최소화하는 데 집중했다. 이는 Meta가 AI 모델을 학술적 경쟁의 대상이 아닌, 개발자 생태계를 장악하기 위한 ’제품’으로 접근하고 있음을 명확히 보여준다. 즉, ’가장 똑똑한 모델’이 되는 것보다 ’개발자에게 가장 유용한 모델’이 되는 것을 목표로 설계된 것이다. 이 전략은 모델의 채택률을 극대화하고, Llama를 사실상의 산업 표준(de facto standard)으로 만드는 데 결정적으로 기여할 것이다.

벤치마크 (Benchmark)Llama 3.3 70BLlama 3.1 405BGPT-4oClaude 3.5 Sonnet
MMLU (5-shot)86.0% (0-shot)88.6%88.7%88.9%
HumanEval (pass@1)88.4%86.0%90.2%-
MATH50073.669.6--
Tool Use1위-2위3위
모델 (Model)입력 비용 (Input Cost / 1M tokens)출력 비용 (Output Cost / 1M tokens)GPT-4o 대비 비용 효율성
Llama 3.3 70B$0.10 - $0.60$0.40 - $0.88~19.8배
GPT-4o$0.25$10.001배
Claude 3.5 Sonnet$3.00$15.00~0.1배

4. 핵심 기능 및 활용 사례 탐구

4.1 다국어 능력

Llama 3.3은 영어를 중심으로 학습되었던 이전 세대 모델들과 달리, 영어 외에 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어 등 총 8개 언어를 높은 수준으로 지원한다.2 이는 단순한 기계 번역 기능을 넘어, 각 언어의 미묘한 뉘앙스와 문화적 문맥을 이해하는 다국어 추론(multilingual reasoning)이 가능함을 의미한다. 이러한 능력은 글로벌 시장을 대상으로 하는 다국어 챗봇, 지역화된 콘텐츠 생성, 그리고 전 세계 고객을 상대하는 고객 지원 시스템 구축에 매우 유용하게 활용될 수 있다.7

4.2 향상된 코딩 및 추론 능력

HumanEval 벤치마크에서 입증된 바와 같이, Llama 3.3은 다양한 프로그래밍 언어에 대한 깊은 이해를 바탕으로 코드 생성, 디버깅, 리팩토링, 최적화와 같은 복잡한 개발 작업을 효과적으로 수행한다.2 또한, 복잡한 문제에 대해 논리적인 단계별 추론(step-by-step reasoning) 과정을 생성하는 능력이 향상되어, 단순한 코드 조각을 제공하는 것을 넘어 개발자의 생산성을 실질적으로 높이는 개발 파트너로서의 역할을 할 수 있다.2

4.3 강력하고 유연한 툴 사용 및 함수 호출

Llama 3.3의 가장 강력한 기능 중 하나는 외부 세계와 상호작용할 수 있는 능력이다.

  • Zero-shot 함수 호출: Llama 3.3은 Llama 3.2에서 도입된 유연하고 강력한 함수 호출(function calling) 형식을 계승한다.3 개발자는 모델에게 특정 함수들의 명세(schema)를 제공하기만 하면, 모델은 사용자의 자연어 요청을 분석하여 어떤 함수를 어떤 인자(argument)로 호출해야 하는지를 명시하는 JSON 형식의 출력을 생성한다. 이 기능은 별도의 예시(shot) 없이도 작동하여 사용이 매우 편리하다.
  • 내장 툴 (Built-in Tools): 모델은 기본적으로 세 가지 강력한 내장 툴을 지원하여 그 능력을 외부 세계로 즉시 확장한다.3
  • Brave Search: 최신 정보를 필요로 하는 질문에 대해 실시간 웹 검색을 수행한다.
  • Wolfram Alpha: 복잡한 수학 계산, 과학적 분석, 데이터 시각화 등을 수행한다.
  • Code Interpreter: 제공된 파이썬 코드를 안전한 환경에서 실행하고 그 결과를 반환한다.

개발자는 이러한 툴들을 조합하여 모델이 최신 정보에 접근하고, 정교한 계산을 수행하며, 코드를 실행하고 결과를 분석하는 등의 복합적인 작업을 자동화할 수 있다.

4.4 고급 활용 사례

Llama 3.3의 강력한 성능과 개방적인 라이선스는 기존에 시도하기 어려웠던 고급 AI 활용 사례를 가능하게 한다.

  • 합성 데이터 생성 (Synthetic Data Generation): Llama 3.3의 고품질 출력물을 사용하여 다른 AI 모델을 훈련시키기 위한 대규모 합성 데이터를 생성할 수 있다. 이는 Llama 3.1부터 허용된 라이선스 정책 변경에 따른 것으로 18, 실제 데이터가 부족하거나 개인정보 보호 문제로 사용하기 어려운 분야에서 특정 도메인에 맞는 모델을 효율적으로 개발하는 데 결정적인 역할을 한다.13
  • 모델 증류 (Model Distillation): Llama 3.3을 교사 모델(teacher model)로 사용하여, 그 지식을 더 작고 효율적인 학생 모델(student model)에 전달하는 모델 증류 기법에 활용할 수 있다.13 이는 엣지 디바이스나 모바일 환경과 같이 컴퓨팅 리소스가 제한된 환경에 AI 모델을 배포하는 데 필수적인 기술이다.
  • 에이전트 시스템 (Agentic Systems): 128K에 달하는 긴 컨텍스트 처리 능력, 다국어 이해력, 그리고 강력한 툴 사용 기능의 조합은 Llama 3.3을 복잡한 작업을 자율적으로 계획하고 수행하는 AI 에이전트 구축을 위한 이상적인 기반으로 만든다.19 예를 들어, “스페인어로 된 최신 반도체 시장 분석 안내서를 요약하고, 안내서에 언급된 주요 기업들의 현재 주가를 Wolfram Alpha로 조회한 뒤, 그 결과를 바탕으로 영어로 투자 전망 안내서를 작성하라“와 같은 다단계 워크플로우를 자동화할 수 있다. 이는 LLM을 단순한 ’응답 생성기’가 아닌, 외부 세계와 상호작용하며 복잡한 목표를 달성하는 ’작업 수행 엔진’으로 진화시키는 것이다. Llama 3.3은 이러한 ‘에이전트 중심 AI’ 패러다임을 저렴한 비용으로 구현할 수 있도록 전략적으로 설계되었으며, 이는 AI의 활용 범위를 크게 넓히는 기폭제가 될 것이다.

5. 로컬 및 클라우드 배포 가이드

5.1 로컬 추론을 위한 하드웨어 요구사항

Llama 3.3 70B 모델을 로컬 환경에서 실행하기 위한 요구사항은 단일하지 않으며, 사용자가 원하는 성능과 정밀도에 따라 다양한 구성이 가능하다.

  • VRAM 요구사항 분석: 가장 중요한 요소는 그래픽 처리 장치(GPU)의 비디오 메모리(VRAM) 용량이다. 모델의 정밀도를 어떻게 설정하느냐에 따라 필요한 VRAM이 크게 달라진다.
  • Full Precision (FP16/BF16): 모델을 완전한 정밀도로 실행하려면 약 140-160GB의 VRAM이 필요하다. 이는 2개 이상의 NVIDIA A100 (80GB) 또는 H100 GPU를 요구하는 구성으로, 주로 대규모 기업이나 연구 기관에 적합하다.20
  • 8-bit Quantization (Q8_0): 8비트 양자화를 적용하면 VRAM 요구량이 약 75GB로 줄어든다. NVIDIA A100 (80GB) 1개 또는 NVIDIA RTX A6000 (48GB) 2개와 같은 구성으로 실행 가능하다.20
  • 4-bit Quantization (Q4_K_M 등): 4비트 양자화는 성능 저하를 최소화하면서 VRAM 요구량을 약 35-45GB까지 낮출 수 있어, 전문가 및 열성적인 개발자들에게 가장 현실적인 선택지다. 2개의 NVIDIA RTX 3090 또는 RTX 4090 (각 24GB)을 NVLink로 연결하여 48GB의 VRAM 풀을 구성하면 원활한 구동이 가능하다.20
  • Ultra-low bit Quantization (2-3 bit): 24GB VRAM을 가진 단일 GPU(예: RTX 3090/4090)에서도 실행은 가능하지만, 모델 응답의 일관성(coherence)이 저하될 수 있어 실험적인 용도에 더 적합하다.24
  • RAM, CPU 및 저장 공간: VRAM 외에도 최소 32GB, 권장 64GB 이상의 시스템 RAM과 다중 코어 CPU가 필요하다. 또한, 모델 가중치와 관련 파일을 저장하기 위해 최소 150GB 이상의 빠른 SSD 저장 공간이 권장된다.21

5.2 로컬 배포 프레임워크 및 절차

로컬 환경에 Llama 3.3을 배포하는 데 사용할 수 있는 여러 도구와 프레임워크가 있다.

  • Ollama: 가장 간편한 로컬 배포 방법 중 하나로, 터미널에서 ollama run llama3.3:70b 와 같은 간단한 명령어를 입력하는 것만으로 모델을 자동으로 다운로드하고 실행할 수 있다.28

  • Hugging Face Transformers: Python 프로그래밍 환경에서 모델을 직접 로드하고 세밀하게 제어하고자 할 때 사용하는 표준 라이브러리다. bitsandbytes와 같은 추가 라이브러리를 함께 사용하면 양자화된 모델을 효율적으로 로드할 수 있다.21 일반적인 설치 및 실행 절차는 Python 가상 환경 설정,

pip install torch transformers bitsandbytes와 같은 필요 라이브러리 설치, Hugging Face CLI를 통한 모델 다운로드, 그리고 모델을 로드하여 추론을 실행하는 코드를 작성하는 순서로 진행된다.

5.3 주요 클라우드 플랫폼에서의 활용

로컬 하드웨어 관리가 부담스러운 사용자들을 위해, 주요 클라우드 제공업체들은 Llama 3.3을 위한 관리형 서비스를 제공하여 손쉬운 접근을 지원한다.

  • Amazon SageMaker JumpStart: AWS 환경에서 클릭 몇 번으로 Llama 3.3 70B 모델을 쉽게 배포하고 관리할 수 있는 서비스를 제공한다.5
  • Oracle Cloud Infrastructure (OCI) Data Science: OCI의 ‘AI Quick Actions’ 기능을 통해 Hugging Face 허브에서 Llama 3.3 모델을 직접 가져와 배포 및 미세 조정할 수 있다.31
  • 기타 제공업체: SambaNova, NVIDIA 등 여러 기술 파트너사들이 Llama 3.3에 최적화된 추론 솔루션 및 API를 제공하여, 사용자가 직접 하드웨어를 구성하지 않고도 높은 처리 속도를 경험할 수 있도록 지원한다.19

Llama 3.3의 등장은 AI 개발을 위한 하드웨어 시장에도 중요한 변화를 가져오고 있다. 이전에는 데이터센터급의 고가 GPU에서만 가능했던 최상위급 LLM 추론이, 이제는 2개의 하이엔드 소비자용 GPU(예: RTX 3090/4090) 조합으로 가능해졌기 때문이다. 이는 개인 개발자나 소규모 팀이 수천 달러 수준의 투자로 최첨단 AI를 자유롭게 실험하고 개발할 수 있는 ‘프로슈머(Prosumer)’ 시장의 성장을 촉진하는 변곡점이 될 것이다. 이 변화는 로컬 AI 개발 커뮤니티의 폭발적인 성장을 유도하고, 고용량 VRAM GPU, 고대역폭 NVLink 브릿지, 고성능 파워 서플라이 등 관련 하드웨어에 대한 새로운 수요를 창출하여 AI 기술의 탈중앙화와 민주화를 가속하는 물리적 기반이 될 것이다.

사용 사례/목표 (Use Case/Goal)양자화 수준 (Quantization)필요 VRAM (Required VRAM)추천 GPU 구성 (Recommended GPU Config)예상 성능 (Est. Performance)
실험적 사용 (Experimental Use)2-3 bit (IQ2_S, IQ3_XXS)24 GB1x NVIDIA RTX 3090 / 4090~10 tokens/sec
본격 개발 (Serious Development)4-bit (Q4_K_M)48 GB2x NVIDIA RTX 3090 / 4090 (NVLink)~30 tokens/sec
고성능 추론 (High-Perf. Inference)8-bit (Q8_0)80 GB1x NVIDIA A100 (80GB)>50 tokens/sec
미세 조정 (Fine-tuning)16-bit (FP16)160 GB2x NVIDIA A100 / H100 (80GB)N/A

6. 라이선스, 거버넌스 및 윤리적 고려사항

6.1 Llama 3.3 커뮤니티 라이선스 분석

Llama 3.3은 ’Llama 3.3 커뮤니티 라이선스’라는 이름의 자체 라이선스 하에 배포된다. 이 라이선스는 표면적으로 매우 관대하지만, Meta의 전략적 의도를 담은 핵심적인 조항들을 포함하고 있다.

  • 허용 범위: 라이선스는 연구 및 상업적 목적의 사용, 복제, 배포, 수정, 파생 작업 생성을 폭넓게 허용한다.1 이는 오픈 소스 정신에 부합하며 개발자 커뮤니티의 자유로운 활용과 혁신을 장려한다.
  • 귀속 및 파생 모델 명명 규칙: Llama 3.3을 사용하여 제품이나 서비스를 만들 경우, “Built with Llama“와 같은 문구를 눈에 띄게 표시해야 한다. 또한, Llama 3.3의 출력물을 사용하여 다른 AI 모델을 훈련시키고 이를 배포할 경우, 해당 모델의 이름 앞에 “Llama“를 포함해야 하는 의무가 있다.1 이는 Llama 생태계의 가시성을 높이고 브랜드 인지도를 강화하기 위한 조치다.
  • 7억 월간 활성 사용자(MAU) 조항: 이 라이선스에서 가장 중요하고 전략적인 제한 사항이다. Llama 3.3을 기반으로 한 제품이나 서비스의 월간 활성 사용자(MAU)가 7억 명을 초과할 경우, 해당 기업은 Meta에 별도의 상업적 라이선스를 요청해야 한다.1 이 조항은 사실상 Google, Apple, Microsoft와 같은 초대형 기술 기업들이 자사의 핵심 서비스(검색 엔진, 운영체제, 오피스 스위트 등)에 Llama 3.3을 무료로 통합하여 Meta의 경쟁력을 약화시키는 것을 방지하기 위한 ‘전략적 방화벽’ 역할을 한다.

6.2 허용 가능한 사용 정책 (Acceptable Use Policy, AUP)

Llama 3.3의 모든 사용은 AUP에 의해 엄격히 규제된다. 이 정책은 모델이 비윤리적이거나 불법적인 목적으로 사용되는 것을 방지하기 위한 구체적인 가이드라인을 제시한다.

  • 금지된 사용: 법률 위반, 타인의 지적 재산권 침해, 폭력 및 테러 조장, 아동 착취, 인신매매, 괴롭힘, 차별, 사기, 허위 정보 생성 및 유포 등 광범위한 불법 및 비윤리적 활동이 명시적으로 금지된다.1
  • 고위험 활동 제한: 군사, 전쟁, 중요 인프라 운영, 불법 무기 및 약물 개발과 같이 인명 피해나 심각한 사회적 위험을 초래할 수 있는 활동에 모델을 사용하는 것이 금지된다.33 또한, 라이선스 없이 금융, 법률, 의료와 같은 전문적인 조언을 제공하는 행위도 금지 항목에 포함된다.

6.3 Llama Guard: AI 안전을 위한 기술적 보호 장치

Meta는 모델의 책임감 있는 사용을 지원하기 위해 Llama Guard라는 기술적 보호 장치를 함께 제공한다.

  • 기능 및 역할: Llama Guard는 Llama 3 아키텍처를 기반으로 콘텐츠 안전 분류를 위해 특별히 미세 조정된 별도의 모델이다.34 이 모델은 사용자의 프롬프트와 모델의 응답을 실시간으로 분석하여, 폭력, 증오 발언, 성적 콘텐츠, 자해 조장 등 14가지 유해 카테고리에 해당하는지를 탐지하고 분류한다.35
  • 작동 방식: Llama Guard는 입력된 텍스트가 ’안전(safe)’한지 ’안전하지 않은(unsafe)’지를 판단하고, 안전하지 않은 경우에는 어떤 유해 카테고리를 위반했는지를 출력한다.37 이를 통해 개발자들은 자신의 애플리케이션 수준에서 유해 콘텐츠를 필터링하거나, 사용자에게 경고를 보내거나, 모델의 응답 생성을 차단하는 등의 안전 정책을 유연하게 구현할 수 있다.

Llama 3.3의 라이선스와 거버넌스 체계는 ’통제된 개방성(Controlled Openness)’이라는 정교한 법률 및 비즈니스 전략을 구현한 것이다. 이는 전통적인 자유-오픈 소스 소프트웨어(FOSS)의 이념과는 구별된다. 99.9%의 사용자에게는 사실상 무료이고 관대한 라이선스를 제공하여 개발자 커뮤니티의 폭넓은 지지와 채택을 유도하는 동시에, ‘7억 MAU’ 조항을 통해 플랫폼 수준의 최대 경쟁자들을 효과적으로 견제한다. 또한, AUP와 Llama Guard는 ’책임감 있는 AI’를 강조하는 규제 기관과 사회에 대한 Meta의 답변으로서, ’무책임한 기술 확산’이라는 비판을 방어하는 역할을 한다. 결국 이 거버넌스 체계는 비즈니스 경쟁, 법률적 책임, 그리고 정치적 고려가 복합적으로 얽힌 전략적 산물이며, ’개방’의 이점을 극대화하면서 ’통제’의 필요성을 확보하려는 절묘한 균형점을 찾으려는 시도다.

7. 한계점, 편향, 그리고 환각 현상 분석

Llama 3.3은 뛰어난 성능과 효율성을 자랑하지만, 현재의 LLM 기술이 가진 근본적인 한계로부터 자유롭지 않다. 이러한 한계를 명확히 인지하는 것은 모델을 책임감 있게 활용하기 위한 전제 조건이다.

7.1 환각(Hallucination)과 사실성(Factuality)의 문제

  • 개념 구분: ’환각’과 ’사실성’은 종종 혼용되지만, 엄밀히 다른 개념이다. ’환각’은 모델이 입력된 컨텍스트나 학습 데이터와 일치하지 않는 정보를 생성하는 현상을 의미하는 반면, ’사실성’은 생성된 정보가 실제 세계의 검증 가능한 사실과 일치하는지를 따지는 문제다.38 예를 들어, 모델은 학습 데이터에 포함된 오래되거나 잘못된 정보를 정확하게 재생성함으로써, 환각을 일으키지 않으면서도 사실이 아닌 내용을 말할 수 있다.
  • 정량적 평가: AI 모델 평가 플랫폼 Vectara의 환각 리더보드에 따르면, Llama 3.3 70B-Instruct는 주어진 문서를 요약하는 작업에서 4.0%의 환각률(hallucination rate)을 보였다.39 이는 일부 경쟁 모델보다는 우수한 수치이지만, Google의 Gemini-2.0-Flash (0.7%)와 같은 최상위 모델보다는 여전히 높은 수치로, 개선의 여지가 있음을 시사한다.
  • 고위험 분야의 문제: 특히 법률, 의료, 금융과 같이 정확성이 절대적으로 중요한 전문 분야에서는 환각 현상이 심각한 문제를 야기할 수 있다. Stanford 대학의 연구에 따르면, 주요 LLM들은 법률 관련 질의에 대해 69%에서 88%에 이르는 매우 높은 환각률을 보였다.40 이는 Llama 3.3과 같은 모델을 전문적인 조언이나 사실 확인을 위해 단독으로 사용하는 것의 심각한 위험성을 경고한다.

7.2 데이터 기반 편향과 공정성

  • 편향의 근원: LLM은 15조 토큰에 달하는 방대한 인터넷 데이터로 학습되므로, 데이터에 내재된 사회적, 문화적, 인종적, 성별 편향을 그대로 학습하고 증폭시킬 고유한 위험을 안고 있다.41
  • 독립적 연구 결과: 독립적인 질적 연구들은 LLM이 특정 집단에 대한 고정관념적인 서사를 무비판적으로 재생산하는 경향이 있음을 보여준다.41 예를 들어, 특정 인종의 여성을 제한적이거나 정형화된 역할으로 묘사하는 등의 문제가 발견되었다. 더 큰 문제는, 모델에게 이러한 편향을 수정하도록 명시적으로 요청하더라도, 피상적인 단어 변경에 그칠 뿐 근본적인 편향적 서사는 그대로 유지되는 경우가 많다는 점이다.

7.3 안전 장치 우회 (Jailbreaking) 및 거부 패턴

  • 의도적 우회: 사용자가 정교하게 설계된 프롬프트 엔지니어링 기법을 사용하면 모델의 안전 장치를 우회하여, AUP에서 금지하는 유해하거나 비윤리적인 콘텐츠를 생성하도록 유도하는 것이 가능하다.43 이는 Llama Guard와 같은 안전 필터가 절대적인 방어벽이 아니라, 특정 조건 하에서 회피될 수 있는 행동 가이드라인에 가깝다는 것을 의미한다.
  • 예상치 못한 거부 (Refusal): 반대로, 모델이 특정 주제에 대해 예상치 못하게 논의를 거부하는 현상도 존재한다. ‘거부 발견(refusal discovery)’ 기법을 사용한 한 연구는 특정 상용 모델이 정치적으로 민감한 주제(예: 중국 공산당 비판)에 대해 체계적으로 답변을 회피하는 패턴을 가지고 있음을 발견했다.44 이는 모델의 행동 경계가 사용자에게 투명하게 공개되지 않았을 때 발생할 수 있는 잠재적 검열 문제를 제기하며, 개방형 모델이라 할지라도 그 행동의 완전한 투명성은 보장되지 않음을 시사한다.

이러한 한계점들은 개별적인 기술적 결함이라기보다는, 현재 LLM 패러다임이 가진 근본적인 ’신뢰성 격차(Trustworthiness Gap)’를 반영한다. 모델의 성능(performance)은 비약적으로 발전했지만, 그 성능을 검증하고 통제하는 능력(verifiability and controllability)은 그 속도를 따라가지 못하고 있다. Llama 3.3과 같이 강력하면서도 접근성이 높은 개방형 모델의 확산은, 이러한 신뢰성 격차를 더욱 중요한 사회적, 기술적 과제로 부상시킬 것이다. 따라서 AI 커뮤니티는 ’어떻게 더 강력한 모델을 만들 것인가’라는 질문을 넘어, ’어떻게 강력한 모델을 신뢰하고 통제할 것인가’라는 질문에 대한 시급한 답을 찾아야 할 책임이 있다.

8. 결론: Llama 3.3이 AI 개발의 미래에 미치는 영향

8.1 AI 개발의 민주화와 혁신 가속

Llama 3.3의 가장 즉각적이고 중요한 영향은 최상위급 AI 모델에 대한 접근 장벽을 극적으로 낮춤으로써 AI 개발의 민주화를 촉진한다는 점이다.17 이전까지 막대한 자본과 컴퓨팅 자원을 가진 소수의 거대 기업만이 접근할 수 있었던 기술을, 이제 전 세계의 스타트업, 중소기업, 학계 연구자, 그리고 개인 개발자들이 자신의 로컬 머신이나 저렴한 클라우드 환경에서 활용할 수 있게 되었다. 이는 AI 기술을 활용한 새로운 아이디어와 애플리케이션의 폭발적인 증가로 이어져, 전체 AI 생태계의 혁신 속도를 전례 없이 가속화할 것이다.

8.2 ‘효율성’ 중심의 아키텍처 패러다임 전환

Llama 3.3의 성공은 AI 모델 개발에서 무한한 파라미터 확장만이 유일한 해답이 아님을 명백히 증명했다. GQA와 같은 효율적인 아키텍처, 고품질 데이터의 선별적 사용, 그리고 정교한 튜닝을 통해 더 적은 자원으로 더 많은 것을 달성할 수 있음을 보여주었다.2 이는 향후 LLM 연구 개발의 방향이 단순한 ’규모의 경쟁’에서 벗어나, ’성능-비용 효율성’을 최적화하는 방향으로 전환될 것임을 강력하게 시사한다. 이는 AI 기술의 지속 가능성 측면에서도 매우 중요한 변화다.

8.3 하이브리드 및 모듈형 AI 시스템의 부상

Llama 3.3과 같이 강력하면서도 효율적인 범용 모델의 등장은, 모든 작업을 단일 거대 모델로 해결하려는 ‘모놀리식(Monolithic) AI’ 접근법에서 벗어나, 여러 모델을 목적에 맞게 조합하여 사용하는 ‘모듈형(Modular) AI’ 시스템의 발전을 촉진할 것이다. 최근 연구들은 LLM이 범용적인 추론과 전체 작업의 조율(orchestration)을 담당하고, 반복적이거나 고도로 전문화된 하위 작업은 더 작고 빠른 특화 모델(Small Language Models, SLMs)에 위임하는 하이브리드 아키텍처의 우수성을 주장한다.45 Llama 3.3은 뛰어난 성능, 강력한 툴 사용 능력, 그리고 저렴한 운영 비용 덕분에 이러한 모듈형 시스템에서 ‘중앙 처리 장치’ 역할을 수행하기에 이상적인 특성을 갖추고 있다.

8.4 Llama 시리즈의 미래와 Meta의 전략

Llama 3.3은 Llama 시리즈의 최종 버전이 아니다. 이는 Llama 4와 같은 차세대 멀티모달, 전문가 혼합(Mixture-of-Experts, MoE) 모델로 나아가는 과정의 중요한 전략적 단계다.46 Meta는 Llama 3.3을 통해 광범위한 개발자 기반을 확보하고 Llama 생태계를 산업 표준으로 굳힌 뒤, 이를 바탕으로 차세대 모델의 시장 영향력을 극대화하려는 장기적인 전략을 추진하고 있다. 즉, 가장 효율적인 텍스트 모델로 현재 시장을 장악하고, 이를 발판으로 미래의 멀티모달 AI 시대를 선도하려는 것이다.

궁극적으로 Llama 3.3의 가장 큰 장기적 영향은 AI 산업의 ’가치 사슬(Value Chain)’을 재편하는 데 있다. 이전에는 거대 모델을 소유한 소수의 기업이 API를 통해 가치를 독점했다면, Llama 3.3은 그 가치의 중심을 ’모델 소유’에서 ’모델 활용 및 최적화’로 이동시킨다. 이제 경쟁 우위는 모델을 소유하는 것에서 나오는 것이 아니라, 이 강력한 오픈 소스 모델을 특정 산업 문제에 맞게 ’미세 조정(fine-tuning)’하고, 가장 저렴하고 빠르게 ’배포(deployment optimization)’하며, 환각이나 편향 문제를 해결하는 ’안전 및 신뢰성 솔루션’을 덧붙이는 능력에서 나오게 될 것이다. 이는 Snowflake의 SwiftKV(추론 비용 절감) 49, NVIDIA의 TensorRT-LLM(추론 속도 향상) 32과 같은 최적화 기술과 수많은 MLOps 플랫폼, AI 안전 스타트업에게 새로운 비즈니스 기회를 창출한다. 결국 Llama 3.3은 API 제공업체의 힘을 상대적으로 약화시키는 동시에, 그 주변에서 가치를 창출하는 훨씬 더 다양하고 분산된 생태계의 성장을 촉진하며, AI 산업을 소수 독점에서 다원적 경쟁 구도로 바꾸는 근본적인 변화를 이끌 것이다.

9. 참고 자료

  1. meta-llama/Llama-3.3-70B-Instruct - Hugging Face, https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct
  2. Llama 3.3: Meta’s Latest Leap in AI-Language Models | by Cogni Down Under | Medium, https://medium.com/@cognidownunder/llama-3-3-metas-latest-leap-in-ai-language-models-0a803e37c93b
  3. Model Cards and Prompt formats - Llama 3.3, https://www.llama.com/docs/model-cards-and-prompt-formats/llama3_3/
  4. The future of AI: Built with Llama - AI at Meta, https://ai.meta.com/blog/future-of-ai-built-with-llama/
  5. Llama 3.3 70B now available in Amazon SageMaker JumpStart | Artificial Intelligence - AWS, https://aws.amazon.com/blogs/machine-learning/llama-3-3-70b-now-available-in-amazon-sagemaker-jumpstart/
  6. Exploring Llama 3 Models: A Deep Dive - Galileo AI, https://galileo.ai/blog/exploring-llama-3-models-a-deep-dive
  7. Introduction to Meta Llama 3.3 - GeeksforGeeks, https://www.geeksforgeeks.org/artificial-intelligence/introduction-to-meta-llama-3-3/
  8. Deep Dive into LlaMA 3 by Hand ✍️ | Towards Data Science, https://towardsdatascience.com/deep-dive-into-llama-3-by-hand-%EF%B8%8F-6c6b23dc92b2/
  9. What is grouped query attention (GQA)? - IBM, https://www.ibm.com/think/topics/grouped-query-attention
  10. Daily Papers - Hugging Face, https://huggingface.co/papers?q=Grouped%20Query%20Attention
  11. Cost-Optimal Grouped-Query Attention for Long-Context Modeling - arXiv, https://arxiv.org/html/2503.09579v2
  12. Llama-Nemotron: Efficient Reasoning Models - arXiv, https://arxiv.org/pdf/2505.00949
  13. llama3.3 - Ollama, https://ollama.com/library/llama3.3
  14. Llama 3.3 70B vs GPT-4o – Which is better for coding? – Bind AI IDE, https://blog.getbind.co/2024/12/13/llama-3-3-70b-vs-gpt-4o-which-is-better-for-coding/
  15. Llama-3.3 70b beats gpt-4o, claude-3,5-sonner, and Llama-3.1 405b on almost all benchmarks. And it’s open source - Reddit, https://www.reddit.com/r/singularity/comments/1h89wje/llama33_70b_beats_gpt4o_claude35sonner_and/
  16. Llama 3.3 70B is better than Claude and GPT-4o for tool use - Discussions - Cursor Forum, https://forum.cursor.com/t/llama-3-3-70b-is-better-than-claude-and-gpt-4o-for-tool-use/44713
  17. What Is Meta’s Llama 3.3 70B? How It Works, Use Cases & More | DataCamp, https://www.datacamp.com/blog/llama-3-3-70b
  18. Llama FAQs, https://www.llama.com/faq/
  19. Meta Llama 3.3 70B Now Available Today for Developers and Enterprises - SambaNova, https://sambanova.ai/blog/meta-llama-3.3-70b-now-available-today-for-developers-and-enterprises
  20. GPU Requirement Guide for Llama 3 (All Variants) - ApX Machine Learning, https://apxml.com/posts/ultimate-system-requirements-llama-3-models
  21. How to Install Llama-3.3 70B Instruct Locally? - NodeShift, https://nodeshift.com/blog/how-to-install-llama-3-3-70b-instruct-locally
  22. Hardware requirements to run Llama 3 70b on a home server : r/LocalLLaMA - Reddit, https://www.reddit.com/r/LocalLLaMA/comments/1eiwnqe/hardware_requirements_to_run_llama_3_70b_on_a/
  23. Why LLaMA 3.3 70B VRAM Requirements Are a Challenge for Home Servers? - Novita, https://blogs.novita.ai/why-llama-3-3-70b-vram-requirements-are-a-challenge-for-home-servers-2/
  24. Llama 3 70b instruct works surprisingly well on 24gb VRAM cards : r/LocalLLaMA - Reddit, https://www.reddit.com/r/LocalLLaMA/comments/1cj4det/llama_3_70b_instruct_works_surprisingly_well_on/
  25. How to run llama 3.3 70b locally. : r/LocalLLaMA - Reddit, https://www.reddit.com/r/LocalLLaMA/comments/1k63bkb/how_to_run_llama_33_70b_locally/
  26. LLaMA 3.3 System Requirements: What You Need to Run It Locally, https://www.oneclickitsolution.com/centerofexcellence/aiml/llama-3-3-system-requirements-run-locally
  27. How to Access Llama 3.3 70b Locally or via API: A Complete Guide - Novita AI Blog, https://blogs.novita.ai/how-to-access-llama-3-3/
  28. How to Install Llama-3.3 70B Instruct Locally? - DEV Community, https://dev.to/nodeshiftcloud/how-to-install-llama-33-70b-instruct-locally-3p1a
  29. How to Install Llama 3.3 70B Large Language Model Locally on Linux Ubuntu - YouTube, https://www.youtube.com/watch?v=PHEj8xsSNTg
  30. How to Install and Run Llama 3.3 70B on a Local Computer - Aleksandar Haber, https://aleksandarhaber.com/how-to-install-and-run-llama-3-3-70b-on-a-local-computer/
  31. Introducing Llama 3.3 model on OCI Data Science - Oracle Blogs, https://blogs.oracle.com/ai-and-datascience/post/introducing-llama-33-model-on-oci-data-science
  32. Boost Llama 3.3 70B Inference Throughput 3x with NVIDIA TensorRT-LLM Speculative Decoding, https://developer.nvidia.com/blog/boost-llama-3-3-70b-inference-throughput-3x-with-nvidia-tensorrt-llm-speculative-decoding/
  33. Llama 3.3 Acceptable Use Policy, https://www.llama.com/llama3_3/use-policy/
  34. Block unsafe prompts targeting your LLM endpoints with Firewall for AI - The Cloudflare Blog, https://blog.cloudflare.com/block-unsafe-llm-prompts-with-firewall-for-ai/
  35. Meta Releases Llama 3.3: a Model with Enhanced Performance - Blogs, https://blogs.expandreality.io/meta-releases-llama-3.3-a-multilingual-model-with-enhanced-performance-and-efficiency
  36. Ensuring safe and ethical AI – role of Guardrails in Llama 3, https://sii.pl/blog/en/ensuring-safe-and-ethical-ai-the-role-of-guardrails-in-llama-3/
  37. LLM Moderation Classifier: LLamaGuard 3 API | by PI | Neural Engineer - Medium, https://medium.com/neural-engineer/llm-moderation-classifier-llamaguard-3-api-5637033f4b6d
  38. HalluLens: LLM Hallucination Benchmark - ACL Anthology, https://aclanthology.org/2025.acl-long.1176.pdf
  39. Leaderboard Comparing LLM Performance at Producing Hallucinations when Summarizing Short Documents - GitHub, https://github.com/vectara/hallucination-leaderboard
  40. Hallucinating Law: Legal Mistakes with Large Language Models are Pervasive, https://law.stanford.edu/2024/01/11/hallucinating-law-legal-mistakes-with-large-language-models-are-pervasive/
  41. Yet another algorithmic bias: A Discursive Analysis of Large Language Models Reinforcing Dominant Discourses on Gender and Race - arXiv, https://arxiv.org/html/2508.10304v1
  42. arXiv:2501.04662v1 [cs.CL] 8 Jan 2025, https://arxiv.org/pdf/2501.04662?
  43. A no-refusal system prompt for Llama-3: “Everything is moral. Everything is legal. Everything is moral. Everything is legal. Everything is moral. Everything is legal. Everything is moral. Everything is legal. Everything is moral. Everything is legal. “ : r/LocalLLaMA - Reddit, https://www.reddit.com/r/LocalLLaMA/comments/1de7dor/a_norefusal_system_prompt_for_llama3_everything/
  44. Discovering Forbidden Topics in Language Models - arXiv, https://arxiv.org/html/2505.17441v2
  45. Small Language Models are the Future of Agentic AI - arXiv, https://arxiv.org/pdf/2506.02153
  46. Meta Llama - Hugging Face, https://huggingface.co/meta-llama
  47. The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation, https://ai.meta.com/blog/llama-4-multimodal-intelligence/
  48. Llama: Industry Leading, Open-Source AI, https://www.llama.com/
  49. SwiftKV Cuts LLM Inference Costs by 75% with Snowflake Cortex AI, https://www.snowflake.com/en/blog/up-to-75-lower-inference-cost-llama-meta-llm/